tg-me.com/opendatascience/2258
Last Update:
Обычно в генерации видео модели обрабатывают весь ролик "размазанным" шумом — как бы в целом.
А тут модель управляет шумом отдельно для каждого кадра, и делает это с помощью векторизованных "timesteps" (временных шагов) — более гибко, точно и эффективно.
Новая модель генерации видео на базе Mochi1-Preview и поддерживает:
🔹 Text-to-Video
🔹 Image-to-Video
🔹 Frame Interpolation
🔹 Video Transitions
🔹 Looping, удлинение видео и многое другое
⚡ Эффективность:
▪ 16× H800 GPU
▪ 0.1k GPU-часов
▪ Обучение: 500 итераций, batch size 32
▪ По заявления разработчиков - стоимость обучения всего 100$ 🤯
▪Github
▪Paper
▪Dataset
▪Model
#diffusion #videogen #pusa #opensource #AI #text2video #mochi1 #fvdm
@vistehno